在建模重复的法院游戏时,许多过去的尝试都认为需求是静止的。这与现实世界的情景不一致,其中市场需求可以通过产品的一生以无数的原因来实现。在本文中,我们模拟了重复的Cournot游戏,不符合非静止需求,使得公司/代理人面临非静止多武装强盗问题的单独实例。代理可以选择的武器/行动代表离散生产量;这里,排序动作空间。代理商是独立和自主的,无法观察到环境中的任何事情;他们只能在采取行动后看到自己的奖励,只能努力最大化这些奖励。我们提出了一种新颖的算法对加权探索(AWE)$ \ EPSILON $ -GREEDY'的自适应,这些探索基于众所周知的$ \ epsilon $ -greedy方法远程。该算法检测和量化由于不同的市场需求而导致的奖励的变化,并与需求变化程度的程度不同,从而使代理能够更好地识别新的最佳动作。为了有效探索,它还部署了一种用于称重利用有序动作空间的动作的机制。我们使用模拟来研究市场上各种均衡的出现。此外,我们在系统中的总代理数量和行动空间的大小之间研究了我们的方法的可扩展性。我们在我们的模型中考虑对称和不对称的公司。我们发现,使用我们提出的方法,代理商能够根据需求的变化迅速改变他们的行动方针,并且在许多模拟中也从事契合行为。
translated by 谷歌翻译
在现实世界中,人/实体通常独立和自主地找到匹配,例如寻找工作,合作伙伴,室友等。这一搜索可能无法对环境的初始知识开始。我们建议使用多档强化学习(MARL)范式,以便在空间制定的分散双面匹配市场与独立和自主代理商。独立行动的自主代理使我们的环境非常动态和不确定。此外,代理商缺乏对其他代理人的偏好知识,并必须探索环境并与其他代理商互动,通过嘈杂的奖励来发现自己的偏好。我们认为这样的设置更好地近似了现实世界,我们研究了我们的Marl方法对它的有用性。除了传统的稳定匹配情况下,代理程序严格排序偏好,我们检查了我们与不完整名单和联系的稳定匹配方法的适用性。我们调查我们的稳定性,不稳定水平(不稳定的结果)和公平性。我们的Marl方法主要产生稳定和公平的结果。
translated by 谷歌翻译
Enhancing resilience in distributed networks in the face of malicious agents is an important problem for which many key theoretical results and applications require further development and characterization. This work focuses on the problem of distributed optimization in multi-agent cyberphysical systems, where a legitimate agent's dynamic is influenced both by the values it receives from potentially malicious neighboring agents, and by its own self-serving target function. We develop a new algorithmic and analytical framework to achieve resilience for the class of problems where stochastic values of trust between agents exist and can be exploited. In this case we show that convergence to the true global optimal point can be recovered, both in mean and almost surely, even in the presence of malicious agents. Furthermore, we provide expected convergence rate guarantees in the form of upper bounds on the expected squared distance to the optimal value. Finally, we present numerical results that validate the analytical convergence guarantees we present in this paper even when the malicious agents compose the majority of agents in the network.
translated by 谷歌翻译
Synthetic data offers the promise of cheap and bountiful training data for settings where lots of labeled real-world data for tasks is unavailable. However, models trained on synthetic data significantly underperform on real-world data. In this paper, we propose Proportional Amplitude Spectrum Training Augmentation (PASTA), a simple and effective augmentation strategy to improve out-of-the-box synthetic-to-real (syn-to-real) generalization performance. PASTA involves perturbing the amplitude spectrums of the synthetic images in the Fourier domain to generate augmented views. We design PASTA to perturb the amplitude spectrums in a structured manner such that high-frequency components are perturbed relatively more than the low-frequency ones. For the tasks of semantic segmentation (GTAV to Real), object detection (Sim10K to Real), and object recognition (VisDA-C Syn to Real), across a total of 5 syn-to-real shifts, we find that PASTA outperforms more complex state-of-the-art generalization methods while being complementary to the same.
translated by 谷歌翻译
我们为对抗性多机器人群众跨任务中的决策制定开发了一个有弹性的二进制假设测试框架。该框架利用机器人之间的随机信任观察,以在集中式融合中心(FC)中得出可进行的弹性决策,即使I)在网络中存在恶意机器人,其数量可能大于合法机器人的数量,并且II )FC使用所有机器人的一次性噪声测量。我们得出两种算法来实现这一目标。第一个是两个阶段方法(2SA),该方法基于收到的信任观察估算机器人的合法性,并证明在最严重的恶意攻击中可最大程度地减少检测错误的可能性。在这里,恶意机器人的比例是已知但任意的。对于不明的恶意机器人,我们开发了对抗性的广义似然比测试(A-GLRT),该测试(A-GLRT)都使用报告的机器人测量和信任观察来估计机器人的可信赖性,其报告策略以及同时的正确假设。我们利用特殊的问题结构表明,尽管有几个未知的问题参数,但这种方法仍然可以计算处理。我们在硬件实验中部署了这两种算法,其中一组机器人会在模拟道路网络上进行交通状况的人群,但仍会受到SYBIL攻击的方式。我们从实际通信信号中提取每个机器人的信任观察结果,这些信号提供有关发件人独特性的统计信息。我们表明,即使恶意机器人在大多数情况下,FC也可以将检测误差的可能性降低到2SA和A-GLRT的30.5%和29%。
translated by 谷歌翻译
尽管变压器已经开始在视力中占主导地位,但将它们应用于大图像仍然很困难。这样做的一个很大的原因是,自我发场的标记数二次缩放,而令牌数量又随图像大小而倍增。在较大的图像(例如1080p)上,网络中总计算的60%以上仅用于创建和应用注意矩阵。我们通过引入Hydra注意来解决这个问题,这是视觉变压器(VITS)的极有效的关注操作。自相矛盾的是,这种效率来自对其极端的多头关注:通过使用尽可能多的注意力头部,Hydra注意力在代币和没有隐藏常数的特征上是线性的,使其比标准自我注意力要快得多。在现成的VIT-B/16中,代币计数的一倍。此外,Hydra注意力保留了ImageNet上的高精度,在某些情况下实际上可以改善它。
translated by 谷歌翻译
蛋白质 - 蛋白质相互作用(PPI)网络由生物体的蛋白质之间的物理和/或功能相互作用组成。由于用于形成PPI网络的生物物理和高通量方法是昂贵的,耗时的,而且通常包含不准确性,因此最终的网络通常不完整。为了推断这些网络中缺少的相互作用,我们提出了基于连续的经典和量子随机步行的新型链接预测方法。在量子步行的情况下,我们检查了网络邻接和拉普拉斯矩阵的用法来控制步行动力学。我们根据相应的过渡概率定义得分函数,并在四个现实世界PPI数据集上执行测试。我们的结果表明,使用网络邻接矩阵的连续时间经典随机步行和量子步行可以成功预测缺失的蛋白质 - 蛋白质相互作用,并且性能与艺术的状态媲美。
translated by 谷歌翻译
视觉语言预处理框架中的语言方式是天生离散的,在语言词汇中赋予每个单词是语义含义。相比之下,视觉方式本质上是连续和高维的,这可能禁止视觉和语言方式之间的对齐和融合。因此,我们建议通过联合学习一本赋予每个视觉令牌语义的代码手册来“离散”视觉表示。然后,我们利用这些离散的视觉语义作为自我监督的基础真相来构建我们的蒙版图像建模目标,这是蒙版语言建模的对应物,证明了语言模型成功。为了优化代码簿,我们扩展了VQ-VAE的配方,该配方提供了理论保证。实验验证了我们在常见视觉基准测试中的方法的有效性。
translated by 谷歌翻译
30天的医院再入院是一个长期存在的医疗问题,会影响患者的发病率和死亡率,每年造成数十亿美元的损失。最近,已经创建了机器学习模型来预测特定疾病患者的住院再入院风险,但是不存在任何模型来预测所有患者的风险。我们开发了一个双向长期记忆(LSTM)网络,该网络能够使用随时可用的保险数据(住院访问,门诊就诊和药物处方)来预测任何入院患者的30天重新入选,无论其原因如何。使用历史,住院和入院后数据时,表现最佳模型的ROC AUC为0.763(0.011)。 LSTM模型显着优于基线随机森林分类器,表明了解事件的顺序对于模型预测很重要。与仅住院数据相比,与住院数据相比,将30天的历史数据纳入也显着改善了模型性能,这表明患者入院前的临床病史,包括门诊就诊和药房数据是重新入院的重要贡献者。我们的结果表明,机器学习模型能够使用结构化保险计费数据以合理的准确性来预测住院再入院的风险。由于可以从网站中提取计费数据或同等代理人,因此可以部署此类模型以识别有入院风险的患者,或者分配更多可靠的随访(更近的后续后续,家庭健康,邮寄药物) - 出院后风险患者。
translated by 谷歌翻译
我们提出了一种可扩展的方法,用于学习开放世界对象目标导航(ObjectNAV) - 要求虚拟机器人(代理)在未探索的环境中找到对象的任何实例(例如,“查找接收器”)。我们的方法完全是零拍的 - 即,它不需要任何形式的objectNav奖励或演示。取而代之的是,我们训练图像目标导航(ImagenAv)任务,在该任务中,代理在其中找到了捕获图片(即目标图像)的位置。具体而言,我们将目标图像编码为多模式的语义嵌入空间,以在未注释的3D环境(例如HM3D)中以大规模训练语义目标导航(Senanticnav)代理。训练后,可以指示Semanticnav代理查找以自由形式的自然语言描述的对象(例如,“接收器”,“浴室水槽”等),通过将语言目标投射到相同的多模式,语义嵌入空间中。结果,我们的方法启用了开放世界的ObjectNAV。我们在三个ObjectNAV数据集(Gibson,HM3D和MP3D)上广泛评估了我们的代理商,并观察到成功的4.2%-20.0%的绝对改进。作为参考,这些收益与2020年至2021年Objectnav挑战赛竞争对手之间成功的5%改善相似或更好。在开放世界的环境中,我们发现我们的代理商可以概括为明确提到的房间(例如,“找到厨房水槽”)的复合说明,并且何时可以推断目标室(例如,”找到水槽和炉子”)。
translated by 谷歌翻译